最新视频 [LLMs tuning] 04 optimizer Trainer 优化细节(AdamW,grad clip、Grad Norm)等[LLMs tuning] 04 optimizer Trainer 优化细节(AdamW,grad clip、Grad Norm)等
最新视频 [动手写 bert 系列] torch.no_grad() vs. param.requires_grad == False[动手写 bert 系列] torch.no_grad() vs. param.requires_grad == False
最新视频 Batch Normalization(批归一化)和 Layer Normalization(层归一化)的一些细节可能和你想的并不一样Batch Normalization(批归一化)和 Layer Normalization(层归一化)的一些细节可能和你想的并不一样
最新视频 [动手写 bert 系列] Bert 中的(add & norm)残差连接与残差模块(residual connections/residual blocks)[动手写 bert 系列] Bert 中的(add & norm)残差连接与残差模块(residual connections/residual blocks)
最新视频 闲聊汽车网络安全04 - 接着聊can-utils中的canplayer, candump, cansniffer闲聊汽车网络安全04 - 接着聊can-utils中的canplayer, candump, cansniffer
最新视频 java代码简洁之道 常用工具类的使用(apache commons系列/guava/spring utils)java代码简洁之道 常用工具类的使用(apache commons系列/guava/spring utils)
最新视频 迪斯尼动画大神的人物动态速写秘籍! Digital Gesture Drawing with NORM迪斯尼动画大神的人物动态速写秘籍! Digital Gesture Drawing with NORM